\documentclass[preprint,12pt]{elsarticle}

% 中文阅读版（内容 1:1 翻译复刻；不用于投稿排版）
% 使用 XeLaTeX 编译：latexmk -xelatex -outdir=build energy_policy_cn.tex

\usepackage[UTF8]{ctex}
\usepackage{amsmath,amssymb}
\usepackage{booktabs}
\usepackage{graphicx}
\usepackage{natbib}
\usepackage{array}
\usepackage{tabularx}
\usepackage[unicode]{hyperref}

\newcolumntype{L}{>{\raggedright\arraybackslash}X}

\journal{Energy Policy}

\begin{document}

\begin{frontmatter}

\title{低碳城市试点能带来更清洁的空气吗？来自中国城市的证据：收益滞后且集中于工业城市}

\author[aff1,aff2]{Zhilong Zhao\corref{cor1}}
\ead{zhilongzhao@scut.edu.cn}

\affiliation[aff1]{organization={School of Journalism and Communication, South China University of Technology}, addressline={Guangzhou}, country={China}}
\affiliation[aff2]{organization={Guangdong--Hong Kong--Macao Greater Bay Area Research Institute of International Communication, South China University of Technology}, addressline={Guangzhou}, country={China}}

\cortext[cor1]{通讯作者：Zhilong Zhao}

\begin{abstract}
城市层面的低碳试点项目，是推动能源转型与工业部门脱碳的关键政策工具之一，但关于本地空气质量协同收益（co-benefits）及其在城市间分布的证据仍不一致。本文基于覆盖 2001--2023 年的地级市年度面板数据，评估中国低碳城市试点（Low-carbon City Pilot, LCCP）对城市空气质量的影响。我们使用日度 AQI 记录构造空气质量指标：年度``优良''天数占比（官方空气质量等级``优''或``良''的天数占全年监测天数的比例），并为避免非完整年度带来的度量偏差，将样本限制在每年监测天数不少于 330 天的城市年份。

利用不同试点批次在时间上的分批启动（staggered adoption），我们将试点城市与其自身历史对比、并与同期非试点城市对比，同时在试点启动前后绘制事件时间（event time）路径以检验既有趋势。我们估计：LCCP 启动后优良天数占比的平均提升约为 0.03（即 3 个百分点）。改善呈现约 3 年的滞后，且基准设定下的事件时间诊断未显示强烈的处理前差异趋势。政策效果存在显著异质性：基期第二产业占比更高的城市估计改善更大（约 5 个百分点），而低第二产业城市的平均效应估计接近 0。

综合来看，证据与低碳试点式治理具有本地空气质量协同收益的结论一致，但收益主要集中在工业污染暴露更高、减排潜力更大的城市。从政策角度看，这提示低碳试点在工业城市的近端空气质量回报可能更高，并且可能取决于监测、执法与改造支持等实施能力。
\end{abstract}

\begin{keyword}
低碳政策 \sep 空气质量 \sep 分批实施 \sep 事件研究 \sep 产业结构 \sep 中国
\end{keyword}

\end{frontmatter}

\section{引言}

城市脱碳是能源转型的核心环节：城市集聚了能源消费、工业生产与本地环境外部性。许多国家采用``试点''式治理，将国家层面目标转化为地方行动；但试点政策往往是复杂的``政策组合包''（policy package），具有较强的异质性，也因此更难评估。中国的低碳城市试点（LCCP）是典型案例：它通过一揽子目标设定、监测考核与政策实验，推动降低碳强度、促进清洁能源与能效提升，并加速产业升级。

本文关注一个直接且高度政策相关的结果变量：空气质量协同收益。尽管 LCCP 的主要目标是低碳转型，但地方执行往往也受``短期可感知''的福利收益驱动，其中更清洁的空气尤为关键。既有研究主要聚焦碳强度、能源效率与绿色创新等结果 \citep{Zeng2023,Wang2023,Ma2021}；关于空气质量影响的证据更为分散，且不同样本与指标得到的结论并不一致 \citep{Yan2021,Zhang2022,Gu2023AirPollution}。因此仍有两个关键政策问题有待回答：（i）在覆盖早期与近期批次的长时间序列中，LCCP 是否与可测量的空气质量改善相关？（ii）哪些城市受益更多？

为回答这些问题，我们构建 2001--2023 年的城市年度面板数据，整合日度 AQI 记录、城市试点启动年份以及社会经济控制变量。核心结果变量为年度``优良''天数占比（空气质量等级``优''或``良''的天数占全年监测天数比例），即 \texttt{good\_days/days}。为降低监测启动/缺失造成的非完整年度偏差，我们限制样本为每年监测天数不少于 330 天的城市年份。基准样本包含 294 个城市、3,765 个城市年份观测。

LCCP 各批次分批启动，使得简单的``前后对比''容易受时间点与选择性影响。我们因此采用适用于分批处理的评估设计：将每个城市与自身历史对比，并与同年非试点城市对比，同时围绕启动年份绘制事件时间路径以检验处理前趋势是否分化。技术细节与稳健性检验见第 4 节与附录 A。

在实质上，我们关注一个简单且具有政策可操作性的异质性维度：基期工业暴露（以第二产业占比衡量）。若 LCCP 通过强化执法、推动改造升级与产业重组发挥作用，则工业污染负荷更高、边际减排空间更大的城市应获得更明显的空气质量收益。

我们的结果给出一个清晰、面向政策的结论。在质量控制样本中，我们估计 LCCP 启动后年度优良天数占比平均提高约 0.03（3 个百分点），且改善约在启动后 3 年出现；收益主要集中在工业城市（高第二产业城市约为 5 个百分点，低第二产业城市估计接近 0）。作为对照，同一数据中碳交易试点的事件时间路径存在明显处理前趋势，提示试点评估需要动态诊断 \citep{AlmondZhang2021CarbonTradingAirQuality,Weng2022}。

这些发现回应两点更广泛的讨论。第一，政策组合包与政策混合可能在主要目标是减碳的同时产生本地协同收益 \citep{Li2022,Yang2023_3137,Wu2023}。第二，扩围不仅要看平均是否有效，更要回答``在哪些城市有效''以及需要哪些执行能力支撑收益兑现。

\section{政策背景与相关文献}

\subsection{低碳城市试点（LCCP）}

LCCP 在地级市层面分批推进。它并非单一工具，而是``政策组合包''：地方政府需设定低碳目标、完善监测与报告、推动能效改造、引导产业结构调整，并协调低碳基础设施投资。作为试点项目，LCCP 强调实验与``边做边学''（learning-by-doing），并将城市纳入监测与问责框架 \citep{Guo2022}.

政策时间线对机制与评估都很关键。第一批 LCCP 于 2010 年启动，随后在 2012 年与 2017 年扩围。这些批次与国家层面更强调约束性能源与环境目标、以及通过试点探索治理与技术路径的阶段性转向相吻合 \citep{Wang2015,Dienst2013}。在地方层面，执行往往跨年：规划、融资、推进改造项目与加强执法，可能先于可观测的环境变化。因而本文强调动态（事件时间）效应，而非仅依赖``启动后''虚拟变量。

从能源政策视角看，协同收益最可能通过能源使用与工业过程实现。城市可通过降低煤炭依赖、提升能效与推动清洁生产改善空气质量。一个关键推论是：当 LCCP 加速高排放部门的能效提升与能源替代时，协同收益可能更大 \citep{Weng2017}。在实践中，LCCP 行动方案通常同时包含``硬''工具（如标准、执法与基础设施投资）与``软''工具（如信息披露、报告与绩效考核）。这种``组合包''特征意味着政策影响可能具有滞后性并表现出更强异质性。

经验研究从多个维度评估 LCCP。一类研究关注碳相关结果，如碳强度与减排 \citep{Zeng2023,Liu2022,Liu2022_0188}，以及能源效率/能环效率 \citep{Wang2023,Yang2023,Li2025}。

第二类研究关注创新与企业响应，包括绿色创新与高排放企业的升级 \citep{Ma2021,Chen2022,Liu2023,Wang2022_9002}。

第三类研究考察更广泛的城市结果，包括生产率/绿色发展、产业升级与空间溢出 \citep{Chen2021,Zhong2024,Li2024_4830}。总体而言，LCCP 确实可能产生显著影响，但也表现出对地方条件与执行能力的依赖。

\subsection{与其他试点政策的叠加}

中国低碳治理依赖多项试点，存在空间与时间上的叠加。例如，碳排放交易（ETS）试点在 2013--2016 年启动，相关文献不断增加，评估 ETS 对空气污染以及碳--污染协同结果的影响 \citep{Weng2022,Shi2022,Liu2021}。

此外，绿色金融改革试验区、创新型城市试点、智慧城市试点、能耗/用能权交易等也都可能影响创新、效率与排放 \citep{Zhang2023,Gao2024,Du2023}。这样的政策环境强化了``诊断式评估''的必要性：若试点投放与既有趋势或提前行动相关，即便点估计看似合理，简单的合并估计也可能产生误导。

\subsection{试点治理、执行与政策混合}

能源转型政策常以政策混合的形式发挥作用：监管、市场化与信息工具以组合方式共同塑造激励与约束 \citep{Wu2023}。LCCP 符合这一逻辑：它包含量化目标、监测与报告，以及要求地方开展政策实验的任务。实践中，城市往往将试点与能效改造、产业升级规划、清洁能源基础设施投资及绿色金融等行动配套。来自中国试点政策体系的经验研究支持一种观点：不同试点工具可能相互强化或通过相近渠道作用。例如，绿色金融改革与技术创新、能效提升相关 \citep{Zhang2023,Gao2024}，而碳交易试点常被用于讨论碳与空气污染协同减排 \citep{Shi2022,Li2024}。

这种``组合包+混合''视角对评估与政策学习有两点启示。第一，政策影响可能滞后：执行需要时间用于规划、建立合规体系与投资。第二，平均效应可能高度异质，因为地方能力、工业基础与配套政策不同。在 LCCP 语境中，执行显著性也可能体现在治理与信息渠道中，包括数字化工具与沟通方式的使用。例如，有研究考察试点与数字经济、创新与企业行为的互动 \citep{Wang2023_0339,Wang2022_9002}。这些考虑共同支撑本文强调动态路径与基期工业暴露异质性。

试点治理也为结构化政策学习提供机会。理想情况下，试点应产生关于``什么有效、在哪些地方有效、在何种条件下有效''的信息，并据此修订规则与扩围。案例研究与执行导向研究显示，不同城市的地方设计与执行可能差异很大 \citep{Dienst2013,Wang2015,Guo2022}。对评估而言，这强调两点：结果变量应与明确的执行基准相联系；异质性应被视为对定向投放与能力建设有信息价值的信号，而非仅是统计噪声。

\subsection{空气质量协同收益与异质性}

关于协同收益的理论与政策论证强调：减少化石能源使用与提升能效的措施，往往也会降低本地空气污染 \citep{Chen2021_8008,Li2022}。但协同收益大小取决于基期污染来源、产业结构、执法能力与改造速度。经验研究发现 LCCP 可能降低雾霾/PM$_{2.5}$ 或改善空气质量，但不同指标、时间窗口与识别策略会带来差异 \citep{Yan2021,Zhang2022,He2023,Gu2023AirPollution}。

相关研究也评估了其他政策工具与政策混合下碳与空气污染的协同减排，包括碳交易与其他监管组合 \citep{Shi2022,Shao2023,Li2024}。

本文将基期工业暴露作为经济含义清晰的异质性维度。工业城市通常本地污染负荷更高，工艺升级与执法带来的边际减排空间更大。若 LCCP 强化监测与问责并加速升级改造，则高第二产业城市的边际收益应更高。反之，若城市空气质量主要由交通/居民部门或区域输送决定，且超出城市治理边界，则平均效应可能较小。该框架与 LCCP 影响产业结构升级与碳--污染协同治理的研究相一致 \citep{Zhong2024,Li2022}。

这种异质性视角也与更广泛 LCCP 文献中的两个事实相吻合。第一，低碳试点通常同时作用于能效、创新与产业升级等多个边际，而这些边际在工业环境中更为关键 \citep{Wang2023,Yang2023,Zhong2024}。第二，一些研究明确将 LCCP 视为``协同治理''工具：当减排潜力高时，能提升碳与空气污染协调控制 \citep{Li2022,Yang2023_3137}。本文贡献在于：以透明且福利相关的空气质量指标呈现这种协同，并量化平均效应对基期工业暴露的依赖程度。

对 \emph{Energy Policy} 而言，研究协同收益还有一个额外动机：执行可行性。协同收益文献强调，碳--污染协同控制能够在实现长期气候目标的同时带来近端的本地福利改善 \citep{Li2022,Yang2023_3137}。因此，在试点治理体系中，用长面板与可信诊断评估协同收益对政策学习尤为重要。

\subsection{本文的定位}

本文位于 \emph{Energy Policy} 关注的三类文献交汇处。第一，它从本地福利的角度补充低碳试点治理证据：既有研究多强调碳相关结果（碳强度、能效、创新）\citep{Zeng2023,Wang2023,Yang2023,Ma2021,Chen2021}，本文则以决策者常用且可沟通的指标（``优良''天数占比）量化空气质量协同收益。第二，它对协同收益文献的贡献在于揭示政策效应并非均匀：同一试点治理组合在工业城市的估计收益更大。第三，它在分批处理的政策评估实践中提供示范：采用 cohort-specific 事件研究并给出稳健性检验（见附录 A），同时通过 ETS 例子展示即便合并 DID 点估计为正，也可能因处理前趋势而存在识别风险。

相较于既有 LCCP 空气质量研究，本文有两点实践差异。第一，许多研究聚焦具体污染物（如 PM$_{2.5}$）或基于 2013 年后监测体系的短时间窗 \citep{Yan2021,Zhang2022,He2023}。本文使用更长时间序列，并用日度 AQI 记录构造稳定的城市年度指标，从而可分析动态与多批次异质性。第二，我们显式处理监测完整性问题，通过筛选监测天数不足的城市年份提升可解释性：年度比例指标只有在覆盖接近全年时才具有稳定含义。

本文亦有助于厘清低碳治理与其他试点工具的关系。ETS 对照并非对碳交易的全面评估，而是强调一个一般性教训：在试点体系中，选择性与提前行动可能存在，评估结论需要诊断支撑。附录 A 报告了叠加排除、替代事件窗口与置换检验，以提供更保守的稳健性图景。

本文的政策启示并非仅是``LCCP 平均有效''。更重要的是，证据提示\emph{定向扩围}可能更具成效：在工业暴露与减排潜力更高、且具备将目标转化为升级改造与执法的执行能力的城市，试点更可能与更明显的空气质量改善相关。这对资源有限、且常将试点视为可扩展工具的能源转型治理具有直接价值。

\subsection{可检验假设}

\textbf{H1（工业暴露）}：LCCP 在平均意义上与空气质量改善相关，且在处理前第二产业占比更高的城市中估计效应更大。

\section{数据}

\subsection{数据来源与构建}

我们整合四类数据构建 2000--2023 年的地级市年度面板。第一，将城市日度 AQI 记录（2001--2024）汇总为城市年度结果变量，计算年度监测天数（\texttt{days}）、``优良''天数（\texttt{good\_days}，定义为官方空气质量等级``优''或``良''的天数）以及年度平均 AQI（\texttt{aqi\_mean}）。第二，匹配城市层面 CO$_2$ 排放（吨）到城市代码与年份。第三，从城市统计数据库获取社会经济控制变量与产业结构占比（GDP、人口、第二/第三产业占比）。第四，整理 LCCP 各批次启动年份（2010、2012、2017）及碳交易试点批次启动年份（2013、2014、2016）。

本文的基准分析使用 2001--2023 年的空气质量结果。为减少非完整年度带来的度量偏差（例如监测开始或缺失月份），将样本限制为每年监测天数不少于 330 天的城市年份，最终得到 294 个城市、3,765 个观测。

\subsection{数据质量与结果变量构造}

空气质量监测覆盖随时间扩展；在监测系统启动或数据缺失时可能出现非完整年度记录。由于核心结果变量是年度比例，非完整覆盖会机械性改变分母（\texttt{days}），从而引入虚假的优良天数占比变化。基准阈值 330 天因此是一个透明的数据质量筛选：在尽量保留样本量的同时，逼近全年覆盖。结果应解读为适用于通过该筛选的``测量较完备''城市年份；该筛选在样本量与度量可靠性之间做了权衡。

\subsection{变量定义}

\textbf{结果变量}：核心结果为年度优良天数占比
\begin{equation}
  \text{GoodDayShare}_{it} = \frac{\text{good\_days}_{it}}{\text{days}_{it}},
\end{equation}
其中 \texttt{good\_days} 为官方空气质量等级``优''或``良''的天数。该指标取值在 $[0,1]$，可直接解释为一年中达到常见可沟通空气质量标准的天数比例。

我们选择优良天数占比主要出于两点考虑。第一，``优/良''分级在政策实践中被广泛使用，且可自然映射为福利相关数量（居民经历``可接受''空气质量的频率）。第二，该指标可贯穿整个分析期：它由日度 AQI 记录与等级构造，而早期年份年度平均 AQI 的一致性更有限。在敏感性检验中，我们也在 2014 年后子样本考察平均 AQI，并获得定性相似的模式（可在复现包中提供）。

\textbf{处理变量}：对每项政策，我们定义城市特定的试点启动年份。启动后虚拟变量从启动年份起取 1，DID 项为 \texttt{Treat$_i$ $\times$ Post$_{it}$}。对 LCCP，本面板中共有 126 个处理城市（2010 年 72 个、2012 年 26 个、2017 年 28 个）。对碳交易试点，共有 46 个处理城市（2013 年 24 个、2014 年 13 个、2016 年 9 个）。

\textbf{工业暴露}：基期第二产业占比定义为 2007--2009 年第二产业占比（\%）的平均值，位于首批 LCCP 启动之前。我们以该指标的中位数将城市分为高第二产业组与低第二产业组。

\begin{table}[htbp]
  \centering
  \caption{描述性统计（基准样本：days$\ge$330）。}
  \label{tab:desc_cn}
  \begin{tabular}{lrrrr}
    \toprule
    变量 & 均值 & 标准差 & 最小值 & 最大值 \\
    \midrule
    优良天数占比 & 0.828 & 0.147 & 0.231 & 1.000 \\
    平均 AQI & 76.047 & 20.236 & 33.850 & 175.344 \\
    log(CO$_2$/GDP) & 0.320 & 0.833 & -2.607 & 2.955 \\
    log(GDP) & 16.694 & 0.978 & 13.859 & 19.973 \\
    第二产业占比（\%） & 44.122 & 11.031 & 10.680 & 90.970 \\
    人口（万人） & 453.264 & 388.634 & 24.000 & 3209.000 \\
    \bottomrule
  \end{tabular}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：描述统计基于分析样本（每年监测天数不少于 330 天）。log(GDP) 为以万元为单位的 GDP 的自然对数。
  \end{minipage}
\end{table}

\section{经验策略}

\subsection{基准 DID 设定}

我们首先估计一个标准的双向固定效应 DID 模型：
\begin{equation}
  y_{it} = \alpha_i + \gamma_t + \beta\,(\text{LCCP}_i \times \text{Post}_{it}) + \varepsilon_{it},
  \label{eq:did_cn}
\end{equation}
其中 $y_{it}$ 为优良天数占比，$\alpha_i$ 为城市固定效应（捕捉不随时间变化的差异，如地理与长期工业基础），$\gamma_t$ 为年份固定效应（捕捉全国性冲击，如宏观波动与全国性环保行动）。标准误在城市层面聚类 \citep{BertrandDufloMullainathan2004}。$\beta$ 可解释为处理城市在启动后相对自身启动前、并相对同期对照城市变化的平均差异。

\subsection{识别假设与诊断}

DID 的因果解释依赖平行趋势：若无 LCCP，处理城市在控制城市与年份固定效应后，应与对照城市具有相同趋势。在分批处理设计中，该假设是``按批次''成立的；在存在异质效应时，传统合并估计量可能产生偏差 \citep{GoodmanBacon2021,CallawaySantAnna2021}。因此，我们将式~\ref{eq:event_cn} 中的处理前领先项系数作为经验诊断：若处理批次在处理前相对``尚未处理/从未处理''城市呈现系统性变化，则因果解释的可信度下降 \citep{SunAbraham2021}。我们报告领先项（事件时间 $\le -2$）的联合检验作为简洁总结，同时注意领先检验并非决定性证据且可能存在低功效问题。

我们还讨论三类常见威胁。第一，\emph{提前反应}（anticipation）：若试点选择信息提前释放，城市可能在正式启动前采取行动。第二，\emph{政策叠加}：同期其他试点或专项行动可能影响空气质量。第三，\emph{溢出效应}：若 LCCP 通过区域输送或产业转移影响邻近城市空气质量，稳定单元处理值假设可能被破坏 \citep{Li2024_4830}。本文设计无法完全消除这些威胁，但长面板、动态路径与异质性模式仍可为政策讨论提供信息。

\subsection{分批处理与 cohort-specific 事件研究}

由于 LCCP 分批启动，若处理效应随时间或批次变化，合并的 TWFE 事件研究可能有偏 \citep{GoodmanBacon2021,CallawaySantAnna2021}。我们因此采用 \citet{SunAbraham2021} 的 cohort-specific 事件研究。令 $G_i$ 为处理城市 $i$ 的试点启动年份（所属批次），估计：
\begin{equation}
  y_{it} = \alpha_i + \gamma_t + \sum_{k \neq -1} \beta_k \,\mathbb{1}[t-G_i=k] + \varepsilon_{it},
  \label{eq:event_cn}
\end{equation}
其中事件时间 $k=-1$ 为省略的基准年。我们报告按批次加权的估计与 95\% 置信区间，并作为诊断报告处理前领先项的联合检验（事件时间 $\le -2$）。

对 LCCP，我们使用 $k \in [-8,6]$ 的事件窗口，以兼顾动态刻画与早期批次的样本支撑；估计按批次规模进行加权汇总，符合 \citet{SunAbraham2021} 的 cohort-weighted 构造。对碳交易试点，由于启动更晚且长领先项样本支撑不足，事件窗口更短。

\subsection{基于基期工业暴露的异质性}

为检验 H1，我们按基期第二产业占比的中位数（2007--2009）划分城市为高/低第二产业组，并分别估计式~\ref{eq:did_cn}--\ref{eq:event_cn}。该划分重在透明与政策可解释性（定向投放），而非结构性机制分解。

\section{结果}

\subsection{平均效应：空气质量}

LCCP 与城市年度空气质量表现的改善相关。在基准设定（表~\ref{tab:did_main_cn}）中，我们估计优良天数占比平均提高 0.0296（标准误 0.0120），约为 3 个百分点。相对于样本均值 0.828，这相当于平均城市每年新增约 11 天``优良''空气质量。

该量级相对于城市间分布差异也具有意义。表~\ref{tab:desc_cn} 显示优良天数占比的 25 分位约为 0.75，中位数约为 0.86。3 个百分点的提升意味着城市在年度空气质量分布中有实质性上移。由于效应在工业城市更大（第 5.3 节），对这些城市的隐含提升约为 0.05，即每年新增约 19 天优良空气。

作为对照，碳交易估计也为正，但我们将其视为描述性结果，因为相应事件时间路径存在显著处理前趋势（见第~\ref{sec:ct_compare_cn} 节）。该对照说明：在分批处理的政策评估中，结论应以动态诊断为锚点，而非仅依赖``前后''点估计。

\begin{table}[htbp]
  \centering
  \caption{基准 DID：试点启动与优良天数占比（days$\ge$330）。}
  \label{tab:did_main_cn}
  \begin{tabular}{lrrr}
    \toprule
    设定 & 系数 & 标准误（聚类） & $N$ \\
    \midrule
    优良天数占比 $\sim$ LCCP DID & 0.0296 & 0.0120 & 3760 \\
    优良天数占比 $\sim$ 碳交易 DID & 0.0328 & 0.0172 & 3760 \\
    \bottomrule
  \end{tabular}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：城市与年份固定效应；标准误在城市层面聚类。
  \end{minipage}
\end{table}

\subsection{动态效应与处理前趋势}

图~\ref{fig:lccp_event_cn} 展示 LCCP 启动前后的事件时间变化。改善具有滞后性：估计在启动后约 3 年开始转为正向。该模式与``政策组合包需要经历规划、改造与执法才能转化为可观测空气质量改善''的解释相一致 \citep{Wang2015,Guo2022}。附录 A 报告了处理前趋势诊断，在基准设定下未显示强烈的差异趋势。

动态路径也揭示了为何仅使用``启动后''指标可能误导政策评估。若政策效应存在多年滞后，短面板或短后期窗口会机械性低估影响；反之，若评估起点已包含早期实施步骤，也可能高估``即时''效果。对 LCCP 而言，滞后改善符合一种执行序列：先制定方案与合规体系，再推进工业过程升级与执法加强，随后才出现持续的空气质量改善。

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.9\textwidth]{figures/Figure_1.png}
  \caption{LCCP 启动与优良天数占比：按批次加权的事件研究（days$\ge$330）。}
  \label{fig:lccp_event_cn}
\end{figure}

稳健性检验（替代监测阈值、城市趋势、剔除直辖市与安慰剂启动年份检验）见附录 A。

\subsection{基于基期第二产业占比的异质性}

表~\ref{tab:did_hetero_cn} 与图~\ref{fig:hetero_cn} 展示按基期工业暴露划分的异质性。在低第二产业城市，平均效应基本为 0；在高第二产业城市，LCCP 使优良天数占比提高约 0.052（标准误 0.017），约为 5 个百分点。分组事件研究与此一致：改善主要集中在高第二产业城市，且在启动后滞后出现。

该异质性与``边际减排空间''解释一致。工业城市在电力与工业过程的基期排放更高，因而升级改造与执法加强更可能转化为可测的空气质量改善。异质性也有助于理解既有研究结论为何不一：不同样本构成（工业 vs.\ 服务型、沿海 vs.\ 内陆）可能产生不同的平均效应，即便政策机制相似 \citep{Yan2021,Zhang2022,He2023,Li2024_4830}。对政策制定者而言，这意味着定向投放很重要：当试点资源有限时，优先覆盖工业暴露更高的城市更可能带来更大、更可见的本地协同收益。

该结果支持 H1：LCCP 在工业污染负荷更高、边际减排空间更大的地区带来更大的本地福利收益。从政策设计角度看，这意味着将低碳试点``平均化''扩围，可能不如``定向扩围+能力配套''更有效。

\begin{table}[htbp]
  \centering
  \caption{异质性：按基期第二产业占比中位数分组（days$\ge$330）。}
  \label{tab:did_hetero_cn}
  \begin{tabular}{lrrr}
    \toprule
    分组 & 系数（LCCP DID） & 标准误（聚类） & $N$ \\
    \midrule
    低第二产业城市 & 0.0010 & 0.0129 & 1835 \\
    高第二产业城市 & 0.0521 & 0.0172 & 1854 \\
    \bottomrule
  \end{tabular}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：按 2007--2009 年基期第二产业占比的中位数划分城市。
  \end{minipage}
\end{table}

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.9\textwidth]{figures/Figure_2a.png}\\[2mm]
  \includegraphics[width=0.9\textwidth]{figures/Figure_2b.png}
  \caption{按基期第二产业占比分组的异质性：低第二产业（上）与高第二产业（下）。}
  \label{fig:hetero_cn}
\end{figure}

\subsection{对照：碳交易试点与识别挑战}
\label{sec:ct_compare_cn}

图~\ref{fig:ct_event_cn} 给出碳交易试点的按批次加权事件研究。尽管合并 DID 点估计为正，事件时间路径显示明显的处理前趋势（领先项联合检验 p$\approx$0.00）。这一模式与选择性投放、提前行动或试点城市的差异趋势相一致，提示在缺乏更强识别策略时不宜将碳交易 DID 估计作因果解释。该诊断也与已有关于碳交易试点与空气质量关系的研究对话 \citep{AlmondZhang2021CarbonTradingAirQuality,Weng2022,Liu2021,Shi2022}.

从政策角度，该对照即便不是本文主旨也具有启发性。碳交易是市场化工具，其效果依赖配额分配、监测执法与市场流动性。试点地区也可能具有更强的环境治理基础或更强的改善空气质量激励，从而产生处理前趋势 \citep{Weng2022,Shi2022}。若评估未处理这种选择性，就可能高估碳交易的因果影响或将治理差异误当作政策效果。一个实务含义是：试点评估应常规报告事件时间诊断，并尽可能使用更能隔离因果变动的识别策略 \citep{AlmondZhang2021CarbonTradingAirQuality}.

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.9\textwidth]{figures/Figure_3.png}
  \caption{碳交易试点与优良天数占比：按批次加权的事件研究（days$\ge$330）。}
  \label{fig:ct_event_cn}
\end{figure}

\section{讨论}

\subsection{为何收益集中在工业城市？}

异质性结果表明：在基期工业暴露更高的城市，LCCP 带来的空气质量改善更大。一个合理解释是：LCCP 的治理组合（目标、监测与问责）在工业城市释放了更多``低垂果实''：能效改造、工艺升级以及更严格的本地污染控制执法。该解释与 LCCP 提升能效、降低能耗的证据相一致 \citep{Wang2023,Yang2023}，也与其促进绿色创新与升级改造的研究相一致 \citep{Ma2021,Chen2022,Zhong2024}。

同时，低第二产业城市的近零平均效应并不意味着低碳转型在这些地区无效。更可能的原因包括：（i）基期本地空气污染与工业源关联更弱，更多由交通/居民部门驱动；（ii）协同收益依赖配套措施（如交通政策）；或（iii）本地空气质量强烈受区域输送与溢出影响，超出城市治理边界 \citep{Li2024_4830}。政策层面，这意味着低碳试点应``因城施策''：侧重工业升级的治理组合更可能在工业暴露较高地区带来可见的空气质量收益。

\subsection{政策定向、扩围与政策混合}

实证模式指向若干可操作的扩围设计选择。定向覆盖工业城市是一种手段，但若地方能力薄弱，仅定向并不足够。对高第二产业城市而言，将明确目标与监测、执法以及升级改造融资支持组合起来，更可能转化为可测的空气质量改善。这与企业与城市层面研究显示的``低碳试点影响升级与绿色创新''一致 \citep{Wang2022_9002,Ma2021,Chen2022,Liu2023}，也与政策混合而非单一工具往往驱动能源转型结果的观点一致 \citep{Wu2023}。

对低第二产业城市，我们的近零平均效应提示：若希望获得空气质量协同收益，可能需要不同的政策组合。在这些城市，关键约束可能在交通、居民用能或区域输送。低碳治理因而可与交通电气化、建筑改造或区域协同机制配套。更一般地，试点政策在嵌入连贯的政策序列时可能更有效（例如将用能权/能耗权交易、碳交易与低碳城市治理进行组合）\citep{Zhang2025,Du2023}。

\subsection{执行设计：``能力''在实践中意味着什么？}

\emph{Energy Policy} 的读者通常关心：如何将评估结果转化为可操作的治理抓手。我们的结果表明，``执行能力''并非抽象概念：约 3 年的滞后与一条包含规划、投资与执法的执行管道相一致。对工业城市而言，至少有三类设计要点。

\textbf{第一，度量与监测。} 城市需要对碳相关指标（能源使用与排放核算）以及空气质量指标进行高频且可信的监测。监测不仅是数据收集，也通过提高不可合规行为的可发现性来支持执法。本文使用的监测天数筛选（days$\ge$330）也强调一个实践教训：缺乏一致的监测覆盖会削弱评估与问责 \citep{Guo2022}。

\textbf{第二，激励与问责。} 试点治理通常依赖目标与绩效考核。明确跨部门（生态环境、工信、能源、财政金融等）的责任分工可降低协调失败。关于 LCCP 执行的证据强调地方执行差异显著，且执行质量是影响结果的重要决定因素 \citep{Guo2022}。将晋升激励与可核验结果对齐，并避免过度短期化的``运动式''治理，有助于维持持续改善。

\textbf{第三，促进升级改造。} 工业城市往往需要改造融资与技术支持，推进清洁生产与向更清洁能源替代。绿色金融与创新导向试点在这一方面可能互补 \citep{Zhang2023,Gao2024}。因此，政策混合应以放松节能与清洁技术采用约束为目标，而非仅依赖命令式要求。

在操作层面，上述要点可转化为一组可跟踪的过程指标，既服务实施管理，也服务评估。例如：（i）监测完整性（年度有效监测天数、重点排放源覆盖），（ii）执法强度（检查频率、处罚与合规率），（iii）改造进度（改造完成率、落后产能退出、能效提升），（iv）创新与扩散信号（绿色专利、低碳技术采用）\citep{Ma2021,Chen2022,Liu2023}。将这些指标嵌入试点治理，有助于区分``政策宣布''与``政策落实''，并在结果指标（空气质量）完全响应之前进行中期纠偏。

因此，我们建议：低碳试点扩围应与能力建设资源以及明确、可度量的中间里程碑（如监测完整性、改造完成率与执法行动）配套，而不仅是最终结果目标。

\subsection{执行显著性：一个探索性代理指标}

由于 LCCP 是组合包，量化``执行强度''并不容易。作为描述性补充，我们利用地级市政府微信公众号推文（2013--2023）构造地方低碳议程显著性代理指标，通过统计低碳相关关键词的发文强度。在我们的数据中，LCCP 启动与低碳相关发文强度的温和上升相关，但估计不精确且不支持强沟通渠道的中介解释。因此我们将其视为政策关注度指标，而非因果中介证据，这与``地方执行质量存在差异''的总体观点一致 \citep{Guo2022}。

\subsection{协同收益、激励与政治经济}

协同收益框架有一个重要的治理含义：名义上以减碳为目标的政策，若与地方短期目标一致，可能被更有力地实施。空气质量是高度本地化且高度显著的结果，改善可带来即时的政治与社会回报。这有助于解释为何工业城市（基期污染暴露更高）既有更大的技术减排潜力，也更有动力推动升级改造与执法加强，与 LCCP 的试点治理与执行文献视角相一致 \citep{Wang2015,Guo2022}。反之，在本地空气质量较少由工业驱动或强受区域输送影响的城市，同一治理组合未必转化为可见改善，从而削弱持续实施动力。

这一政治经济视角进一步强化了异质性结果的政策意义：试点设计不仅应定向覆盖高潜力城市，也应配套监测与里程碑体系，在结果滞后时维持激励。此外，对协同收益的传播也应谨慎：夸大短期改善会削弱可信度，而强调现实滞后与中间里程碑更有助于维持支持。

\subsection{区域协同与溢出}

空气质量具有空间属性：污染物跨行政边界输送，产业转移也可能将排放在地区间重新分配。因此有两点政策考量。第一，城市层面的试点项目可能需要区域协同机制才能充分实现协同收益，尤其在联系紧密的城市群。第二，若溢出较大，评估结果可能低估或错误归因政策影响。本文城市年度设计未显式建模空间溢出，因此估计应解读为净本地变化，而非区域福利的完整核算。未来研究可结合大气输送模型或空间计量设计量化溢出，并检验低碳试点是否将污染转移至邻近地区 \citep{Li2024_4830}。

\subsection{对评估实践的启示}

除实质发现外，本文也展示了对能源政策学习重要的两类评估实践。第一，分批启动的试点应使用对异质处理效应更稳健的方法，并常规报告动态诊断 \citep{GoodmanBacon2021,CallawaySantAnna2021,SunAbraham2021}。事件时间路径可澄清时序（滞后）并检验处理前趋势是否削弱因果解释。第二，应显式处理政策叠加。我们的 ETS 对照说明即便合并 DID 点估计为正，也可能出现明显处理前趋势；附录 A 显示排除 ETS 叠加后 LCCP 估计仍为正。对将试点作为学习装置的政策机构而言，将这些诊断纳入常规评估流程可降低过度宣称风险。

\subsection{局限与未来研究}

对政策解读而言有三点局限。第一，尽管基准设定下的领先检验降低了对差异趋势的担忧，但试点投放仍可能与不可观测的时间变动因素相关（如同期地方专项行动或能力演化）。第二，优良天数占比具有可解释性，但无法揭示改善由哪些污染物驱动；未来可将 LCCP 与源清单排放与健康结果相连接。第三，中国政策环境存在多项叠加工具（碳交易、绿色金融、创新型城市等）可能交互 \citep{Li2024,Zhang2023,Gao2024,Wang2023_4383}；理解政策混合与政策序列是能源与环境治理的关键议题 \citep{Wu2023}。

此外，城市年度设计也抽象掉了城市内部的分布效应：空气质量改善在社区间可能不均等，福利收益也取决于人口暴露与基期健康状况。相关研究表明低碳试点可能影响劳动收入与人口动态等社会经济结果 \citep{Li2025_2762,Chen2023}。未来可将试点与健康与分配结果相连，考察低碳治理在不同群体间的福利效应。为促进透明与累积性政策学习，我们将提供复现包（代码、文档与派生分析面板），但需遵守上游数据的第三方许可限制。

\section{结论与政策含义}

本文利用覆盖较长时期的地级市年度面板数据与分批处理方法，评估中国低碳城市试点（LCCP）的空气质量协同收益。我们用日度 AQI 记录构造年度``优良''天数占比，并通过数据质量筛选（每年监测天数不少于 330 天）提升可解释性。在该样本中，我们估计 LCCP 与优良天数占比约 0.03（3 个百分点）的平均提升相关，且改善约在启动后 3 年出现。

\textbf{核心信息：}低碳城市试点能够带来更清洁的空气，但收益具有滞后性且主要集中在工业城市。

收益分布是最关键的政策发现。改善主要集中在工业城市：低第二产业城市效应接近 0，而高第二产业城市约为 0.05（5 个百分点）。这意味着平均效应会掩盖不同城市间巨大的本地福利回报差异。

\textbf{政策含义。}本文结果与\emph{定向扩围}与\emph{能力配套}的思路一致。若希望通过更清洁的空气获得近端福利收益，则优先配置在工业城市与高减排潜力部门可能更有效。考虑到效应存在多年滞后，政策组合的设计与评估可能需要采用现实的实施周期，并用可核验的中间里程碑跟踪执行进度。

对政策制定者与执行机构而言，本文结果对应一组可操作的实施要点：
\begin{enumerate}
  \item \textbf{定向投放：}在试点资源有限时，可考虑优先覆盖基期工业暴露更高的城市。
  \item \textbf{监测体系：}尽量保证空气质量与能源/排放监测覆盖稳定一致，以支撑评估与问责。
  \item \textbf{改造支持：}可考虑将目标与改造融资与技术支持配套，推动节能改造与清洁生产。
  \item \textbf{治理协同：}明确并协调跨部门责任，并设置可度量的中间里程碑，而不仅是最终结果目标。
\end{enumerate}

第四，碳交易试点对照提示一个更一般的能源政策评估教训：即便合并点估计为正，明显处理前趋势也可能意味着选择性或提前反应。试点评估因此应常规报告事件时间诊断，并尽可能采用更强的识别策略 \citep{SunAbraham2021}。

\section*{CRediT 作者贡献声明}
Zhilong Zhao: Conceptualization, Methodology, Formal analysis, Writing--original draft, Writing--review \& editing, Visualization.

\section*{生成式 AI 使用声明}
在本文准备过程中，作者使用生成式 AI 工具（ChatGPT，OpenAI）仅用于语言润色（语法与表达清晰度）。该工具未用于生成研究问题、研究设计、分析代码、统计分析、结果或结论。作者对所有 AI 辅助文本进行了审阅与必要修改，并对论文内容的准确性与完整性承担全部责任。

\section*{资助信息}
本研究未获得任何专项资助。

\section*{利益冲突声明}
作者声明不存在需要披露的竞争性利益。

\section*{数据可得性}
复现代码、依赖环境、变量字典，以及足以复现全部表格与图形的派生城市年度面板数据已公开发布在 Harvard Dataverse（DOI：10.7910/DVN/FRDJZZ）。由于第三方许可限制，部分上游原始数据不再分发；复现包提供获取说明，并提供从本地上游数据重建派生面板的脚本。

\section*{参考文献}
\bibliographystyle{elsarticle-harv}
\bibliography{refs,refs_selected_unique}

\appendix
\setcounter{table}{0}
\setcounter{figure}{0}
\renewcommand{\theHtable}{\thesection.\arabic{table}}
\renewcommand{\theHfigure}{\thesection.\arabic{figure}}

\section{附录A：稳健性检验}

\subsection{替代样本与设定}

表~\ref{tab:appendix_robust_cn} 报告主要结果的稳健性检验。第一，LCCP 估计在不同监测阈值（days$\ge$300 与 days$\ge$350）下较为稳定。第二，加入城市线性趋势后系数减小但仍为正；这提示合并估计可能受到渐进性差异趋势影响，也进一步支持本文强调事件时间诊断。第三，剔除四个直辖市后估计与基准接近。

\begin{table}[htbp]
  \centering
  \small
  \caption{稳健性检验与补充结果变量。}
  \label{tab:appendix_robust_cn}
  \begin{tabularx}{\textwidth}{@{}Lrrr@{}}
    \toprule
    设定 & 系数 & 标准误 & $N$ \\
    \midrule
    优良天数占比 $\sim$ LCCP DID（days$\ge$300） & 0.0319 & 0.0118 & 3795 \\
    优良天数占比 $\sim$ LCCP DID（days$\ge$330） & 0.0296 & 0.0120 & 3760 \\
    优良天数占比 $\sim$ LCCP DID（days$\ge$350） & 0.0276 & 0.0120 & 3685 \\
    优良天数占比 $\sim$ LCCP DID + 城市趋势（HC1） & 0.0184 & 0.0082 & 3760 \\
    优良天数占比 $\sim$ LCCP DID（剔除直辖市） & 0.0284 & 0.0121 & 3672 \\
    \midrule
    优良天数占比 $\sim$ ETS DID + 城市趋势（HC1） & 0.0383 & 0.0158 & 3760 \\
    优良天数占比 $\sim$ ETS DID（剔除直辖市） & 0.0300 & 0.0146 & 3672 \\
    \midrule
    log(CO$_2$/GDP) $\sim$ LCCP DID（TWFE） & -0.0015 & 0.0407 & 6858 \\
    log(CO$_2$/GDP) $\sim$ LCCP DID + 城市趋势（HC1） & -0.0185 & 0.0142 & 6858 \\
    \bottomrule
  \end{tabularx}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：``ETS'' 指碳交易试点城市。城市趋势设定包含城市线性趋势，并因高维趋势交互下聚类标准误数值不稳定而采用 HC1 标准误。
  \end{minipage}
\end{table}

\subsection{安慰剂启动年份检验}

为检验处理前趋势与提前反应，我们进行安慰剂启动年份检验：对处理城市，将 LCCP 启动年份向前平移，并仅使用真实启动前的城市年份估计 DID。向前平移 2--4 年的安慰剂估计接近 0 且不显著（表~\ref{tab:appendix_placebo_cn}）。

\begin{table}[htbp]
  \centering
  \small
  \caption{LCCP 安慰剂检验（将启动年份向前平移）。}
  \label{tab:appendix_placebo_cn}
  \begin{tabularx}{\textwidth}{@{}Lrrr@{}}
    \toprule
    设定 & 系数 & 标准误（聚类） & $N$ \\
    \midrule
    优良天数占比 $\sim$ 安慰剂 LCCP DID（pilot$-2$；仅启动前） & -0.0041 & 0.0135 & 2515 \\
    优良天数占比 $\sim$ 安慰剂 LCCP DID（pilot$-3$；仅启动前） & -0.0070 & 0.0178 & 2515 \\
    优良天数占比 $\sim$ 安慰剂 LCCP DID（pilot$-4$；仅启动前） & -0.0132 & 0.0202 & 2515 \\
    \bottomrule
  \end{tabularx}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：样本限制为 days$\ge$330，且对处理城市仅保留真实启动前年份（year $<$ true pilot year）。
  \end{minipage}
\end{table}

\subsection{事件研究领先项的联合检验}

为便于透明呈现，表~\ref{tab:appendix_leads_cn} 报告事件研究领先项（事件时间 $\le -2$）的联合检验。对 LCCP，基准设定下不拒绝差异趋势（p$\approx$0.16）；对碳交易试点，领先项联合显著（p$\approx$0.00），与选择性投放和/或提前反应一致。

\begin{table}[htbp]
  \centering
  \caption{按批次加权事件研究的领先项联合检验。}
  \label{tab:appendix_leads_cn}
  \begin{tabular}{lrr}
    \toprule
    政策 & 领先项联合检验 p 值 & 领先窗口 \\
    \midrule
    LCCP $\rightarrow$ 优良天数占比 & 0.16 & 事件时间 $\le -2$ \\
    ETS $\rightarrow$ 优良天数占比 & 0.00 & 事件时间 $\le -2$ \\
    \bottomrule
  \end{tabular}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：事件研究系数使用 \citet{SunAbraham2021} 的 cohort-specific 方法估计，并控制城市与年份固定效应。
  \end{minipage}
\end{table}

\subsection{政策叠加：排除 ETS 试点城市/时期}

鉴于试点政策体系存在叠加，我们检验在排除 ETS 叠加后，LCCP 估计是否敏感。表~\ref{tab:appendix_overlap_cn} 报告两种方式：（i）完全剔除 ETS 试点城市；（ii）保留 ETS 城市但剔除其 ETS 启动后的年份（仅保留 ETS 启动前观测）。两种方式下 LCCP 估计均为正且量级相近。

\begin{table}[htbp]
  \centering
  \small
  \caption{排除 ETS 叠加后的 LCCP DID。}
  \label{tab:appendix_overlap_cn}
  \begin{tabularx}{\textwidth}{@{}Lrrr@{}}
    \toprule
    样本限制 & 系数（LCCP DID） & 标准误（聚类） & $N$ \\
    \midrule
    剔除 ETS 试点城市 & 0.0329 & 0.0129 & 3138 \\
    剔除 ETS 启动后年份（保留 ETS 启动前） & 0.0272 & 0.0121 & 3324 \\
    \bottomrule
  \end{tabularx}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：基准结果样本（days$\ge$330）。``剔除 ETS 启动后年份''指在 ETS 试点城市中移除 year $\ge$ 城市特定 ETS 启动年份的观测。
  \end{minipage}
\end{table}

\subsection{替代事件窗口}

为检验事件窗口选择的敏感性，我们分别使用 $[-6,6]$ 与 $[-10,8]$ 的窗口重新估计 LCCP 事件研究。图~\ref{fig:appendix_window_short_cn} 与图~\ref{fig:appendix_window_long_cn} 显示，主要动态模式（启动后滞后改善）保持一致。领先项联合检验仍不拒绝（$[-6,6]$ 的 p=0.35；$[-10,8]$ 的 p=0.11）。

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.92\textwidth]{figures/Figure_A1.png}
  \caption{替代窗口 $[-6,6]$ 的 LCCP 事件研究（days$\ge$330）。}
  \label{fig:appendix_window_short_cn}
\end{figure}

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.92\textwidth]{figures/Figure_A2.png}
  \caption{替代窗口 $[-10,8]$ 的 LCCP 事件研究（days$\ge$330）。}
  \label{fig:appendix_window_long_cn}
\end{figure}

\subsection{Stacked DID 估计}

作为 cohort-weighted 事件研究的补充，我们采用 cohort-by-cohort 的 stacking 逻辑估计 stacked DID。对每个启动批次 $g \in \{2010, 2012, 2017\}$，构建包含（i）该批次处理城市与（ii）从未处理城市的 cohort-specific 样本，并限制在 $[-8,6]$ 的事件窗口内；随后估计包含 cohort-specific 城市与年份固定效应（city$\times$cohort、year$\times$cohort）的 DID，并在原始城市层面聚类以允许不同 stack 之间相关。表~\ref{tab:appendix_stacked_cn} 报告 stacked 估计，其量级与基准 DID 接近。

\begin{table}[htbp]
  \centering
  \small
  \caption{LCCP 的 stacked DID 估计。}
  \label{tab:appendix_stacked_cn}
  \begin{tabularx}{\textwidth}{@{}Lrrr@{}}
    \toprule
    设定 & 系数 & 标准误（聚类） & $N$ \\
    \midrule
    优良天数占比 $\sim$ LCCP DID（stacked；窗口 $[-8,6]$） & 0.0319 & 0.0127 & 4728 \\
    \bottomrule
  \end{tabularx}
  \begin{minipage}{\textwidth}
    \footnotesize\raggedright 注：基准结果样本（days$\ge$330）。对照组为从未处理城市；在每个批次 stack 中排除其他批次的处理城市。
  \end{minipage}
\end{table}

\subsection{置换检验（试点年份重分配）}

作为一种非参数补充，我们进行置换检验：在保持处理城市集合与批次规模分布不变的前提下，在处理城市之间随机重分配 LCCP 启动年份，并在每次重分配后重新估计包含城市与年份固定效应的 TWFE DID 系数。图~\ref{fig:appendix_perm_cn} 展示 400 次抽样得到的安慰剂系数分布；经验双侧 p 值约为 0.10，表明观测到的估计位于置换分布的上尾。

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.92\textwidth]{figures/Figure_A3.png}
  \caption{置换检验：在处理城市间重分配 LCCP 启动年份（400 次）。}
  \label{fig:appendix_perm_cn}
\end{figure}

\end{document}
